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"METODO DI ANALISI DI UNA TABELLA DI DATI RELATIVI 
ALL'ESPRESSIONE DI GENI E RELATIVO SISTEMA DI 
IDENTIFICAZIONE DI GRUPPI DI GENI CO-ESPESSI E CO- 
REGOLAH'' 

CAMPO DELL'INVENZIONE 

La presente invenzione conceme in generate Tanalisi genomica e piu in particolare 
un metodo e relative sistema di identiflcazione di gruppi di geni co-regolati e co- 
espressi dall'analisi di dati relativi all'espressione di geni variabile nel tempo o 
relativa a condi^oni difiTerenti. 

BACKGROUND DELL'iNVENZIONE 

La conoscenza della sequenza del genoma umano e di altri organismi fomisce alia 
ricerca strumenti d'importanza fondamentale per lo sviluppo di strategie di 
prevenzione e cura delle malattie, che nella maggior parte dei casi sembrerebbero 
dovute all'azione di piu geni contemporaneamente. 

Tutte le cellule di un organismo contengono lo stesso patrimonio genetico, ma il 
numero di geni che sono espressi, owero copiati in mRNA, e specifico per tipo 
cellulare; in questo senso lo mRNA e lo specchio dei geni attivi. Ogni cellula del 
nostro corpo esprime soltanto uno specifico set di geni in accordo con un 
programma altamente regolato che conferisce a quella cellula il suo disegno 
distintivo e le sue capacita funzionali. II programma d'espressione genica di un 
genoma definisce il niolo e il comportamento d'ogni cellula di un organismo. 

L'informazione genetica d'ogni cellula controUa che le proteine siano sintetizzate, 
in quale quantita, attraverso il preciso controllo dell'espressione genica dei 
trascritti da ogni gene (Regolazione), 

n Gene-Chip rappresenta uno strumento straordinario per lo studio del profilo di 
espressione genica, inteso come I'insieme degli stati di attivita di un set di geni. 
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Uno studio comparativo dell'espressione genica di diversi tessuti, o nello stesso 
tempo a difFerenti stadi di sviluppo, consente di capire quali geni distinguono un 
tipo cellulare da un altro e come i van tipi cellulari si difFerenziano. 

Grazie a queste tecnologie, oggi si ha a disposizione una consistente mole di dati 
5 relativa al livello d'espressione genica. 

Uii obiettivo della ricerca genomica e Tinterpretazione dei profili d'espressione 
genica, ponendo I'attenzione su quali siano le interazioni gene-gene tra geni che 
concorrono ad uno stesso processo regolatorio. Dato che ogni esperimento 
produce una grande quantita di dati, essi devono essere organizzati utilizzando 
10 tecnichedi "Data Mining". 

Con il termine "Data Mining", citato in letteratura anche come "Knowledge 
Discovery in Database" (scoperta della "conoscenza" dai dati contenuti nei 
database) si indica Tinsieme di quelle tecniche di estrazione di informazione 
potenzialmente utile e sconosciuta in precedenza, da un insieme di dati, 

15 Note tecniche di Data Mming sono quelle basate su algoritmi di raggruppamento 
(clustering) classificabili in due differenti tipologie: 

• Clustering semantico, basato su proprieta semantiche di una carta entita; 

• Clustering numerico, basato su proprieta quantitative di una certa entita. 

Mentre secondo gli approcci classici veniva studiato un gene o sequenza per volta, 
20 I'attuale tendenza genomica e verso lo sviluppo di tecnologie che permettano 
Tanalisi parallela di molte migliaia di geni contemporaneaniente. Lo stato 
dell' arte in questo ambito riguarda la costmzione di matrici (microarray) con acidi 
nucleici per lo studio dei livelli di mRNA di campioni biologici. 

L'attuale stato deirarte nell'analisi deirinformazione genomica e caratterizzato 
25 dall'uso di tecniche di raggruppamento (clustering) di tipo esclusivo e non 
supervisionato. Attraverso queste tecniche, le sequenze geniche, che sono 
rappresentate da un vettore i cui elementi sono le espressioni temporali 
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determinate in uno specifico contesto biologico, o piu in generale i valori di 
espressione in diverse condizioni, isono raggruppate per similarity con algoritmi 
che non richiedono alcuna conoscenza a priori. 

n termine "clustering'* 6 quindi utili2zato, in questo specifico contesto, per 
s indicare criteri di raggruppamento con i quali si puo partizionare una tabella di 
dati relativi a geni in sotto-tabelle contenenti dati di geni che presentano 
caratteristiche simili. In sostanza, con i criteri di raggruppamento ("clustering") e 
possibile partizionare le sequenze geniche secondo caratteristiche di similarita 
nell*andamento deir espressione temporale o nella comparazione di diversi stati. 

10 Una breve presentazione dei criteri di raggruppamento noti e efiettuata nel 
paragrafo successivo. 

iDATAMlNING 

I dati relativi al livello di espressione di geni esaminati, vengono organizzati, 
mantenuti e aggiomati in una tabella, come la Tabella 1. Nelle diverse colonne 
15 sono riportati i livelli di espressione in diversi istanti temporali o per diverse 
condizioni iniziali del ciclo di esperimenti. 

L'insieme dei livelli di espressione di un gene nei diversi istanti temporali (dati 
della stessa riga), e chiamato Profilo di espressione temporale ("pattern of gene 
expression"). 

20 La coloima ORF^ contiene valori alfanumerici identificativi dei geni, detti anche 
"accession numbers", atti a specificare a quali geni riferirsi nei siti web estemi che 
vengono consultati per la ricerca. Ogni qualvolta, viene scoperto un nuovo gene, 
gli viene assegnato un "accession number" per poterlo introdurre nei database 
pubblici. 

25 Le celle interne alia tabella contengono informa^oni per imo specifico gene 
correlate al suo campione. II valore "5.8" in corrispondenza della prima riga e 
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della quarta colonna della Tabella 1, indica che il valore o livello deU'espressione 
genica, osservato per il gene YALOOIC dopo due ore dal primo esperimento, e 
5 . 8 . La cella yuota indica assenza di informazione, 

Dato un set di geni, I'insieme del loro stati di attivita, intesi come livelli 
5 d'espressione ad un dato istante (dati neUa stessa colonna), 6 chiamato profile di 
espressione genica. 

Alio stato dell'arte, la tecnica computazionale piu utilizzata per Tanalisi di 
espressione genica e il clustering nunierico di geni basato sulla simaarita dei 
pattern di espressione. 

10 NeU'ambito della bioinfonnatica, le tecniche di raggruppamento (clustering) 
producono gruppi di geni (CLUSTERS) per: 

• Estrarre dei "motivi"^ regolatori; 

• Dedurre famiglie funzionali; 

• Classificare tipi di cellule, campioni di tessuto ecc,. 

15 Estrazione dei "motivi" regolatori 

Se i motivi del gene sono noti, come nel case del lievito, e possibile identificare i 
motivi regolatori di un CLUSTER di geni che presentano simili livelli di espressione 
genica. In altre parole e possibile dedurre la co-regolazione dalla co-espressione: e 
probabile cioe che geni co-espressi, facenti parte dello stesso CLUSTER, 
20 contengano motivi regolatori comuni. 

I CLUSTER, ottenuti raggruppando sequenze temporali di espressioni geniche 
simili, possono essere analizzati per predire i fattori di trascrizione responsabili 
della sintesi di una proteina. 

Deduzione di famiglie funzionali 

25 Un altro obiettivo delle tecniche di raggruppamento (clustering) e quello di 
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identificare geni che abbiano simili funzioni owero che intervengono in uno 
stesso processo cellulare. Se ad esempio un gene sconosciuto e raggruppato con 
un numero di geni la cui famiglia funzionale e nota (per mezzo del clustering 
semantico), e possibile dedurre la funzione del gene in esame. 

5 Classificazione di tipi di cellule, campioni dl tessuto ecc 

Un altro modo di utilizzare dati di espressione genica 6 la classificazione intesa 
come identificazione e distinzione di diversi tipi di cellule, campioni di tessuto 
ecc 

Si ipotizza che geni appartenenti ad uno stesso gruppo (CLUSTER) concorrono alia 
10 fonnazione di uno stesso. tipo di cellula o di uno stesso tessuto. 

Le informazioni ottenute con tecniche di Data Mining, possono essere interpretate 
con I'ausilio di rappresentazioni grafiche come quelle nelle Figure 1 e 2, Gli 
andamenti temporali dei geni nel grafico di Figura 1 sono riferiti ad uno stesso 
campione (profili di espressione temporale). 

15 Come si puo osservare, i geni 1 e 2 presentano delle caratteristiche simili, poiche 
hanno entrambi un analogo andamento temporale (valori del pattern di 
espressione molto "vicini"). Ci si aspetta dunque, che questi due geni rispondano 
entrambi a stessi stimoli intemi o estemi: per esempio, la loro attivita potrebbe 
essere influenzata dallo stesso set di ingressi, owero dallo stesso set di geni 

20 regolatori. 

Diversamente, nel grafico di Figura 2 sono confi-ontati livelli di espressione 
genica ad un istante temporale fissato, ma relativi a campioni difFerenti. Questo 
confironto e d'aiuto per capire se un gene (magari in concomitanza con altri geni) 
e responsabile di una certa malattia. 

25 Se ad esempio un campione (T5) di un portatore sano di una malattia, quali ad 
esempio il diabete, ha un gene (Genel) con un livello di espressione che presenta 

2 Brevi sequenze di DNA che si legano alFRNA polimerase deflnendo ii punto di inizio della 
trascrizione. 
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una forte variazione rispetto al valore dello stesso gene esaminato da altri 
campioni di soggetti non afFetti da diabete, si potrebbe ipotizzare che il gene 
Genel sia la causa della malattia in questione. 

Le tecniche di raggruppamento (clustering), oltre ad essere un potente mezzo per 
5 Tanalisi dell'espressione genica, sono utilizzate nella cosiddetta fase di pre- 
processing di una rete dinamica regolatoria di geni (Gene Network). Per 
modellizzare una rete dinamica regolatoria e necessario, come primo passo, 
conoscere da quali e quanti geni essa e costituita. Nella fase di pre-processing 
vengono selezionati uno o piiigruppi di geni che possono costituire una Gene 
10 Network. 

Data rimportanza delle tecniche di raggruppamento (clustering), nei paragrafi 
successivi sono presentate queste tecniche di Data Mining. 

Clustering di tipo numerico 

Una tecnica di clustering di tipo numerico fa uso d'algoritmi matematici per 
, 15 raggruppare geni basandosi sulla similarita dei valori d'espressione genica 
ricavati. 

Brevemente, una tecnica di clustering numerico si compone di due parti: una 
misura di distanza che indica quanto siano simili i pattern d'espressione di una 
coppia di geni (o piu genericamente di due CLUSTER) e un algoritmo di clustering 
20 per identificare CLUSTER di simiU pattern d'espressione genica basati sulla misura 
di distanza scelta. 

. Clustering di tipo semantico 

II sequenziamento del genoma umano e di vari altri organismi modello in questi 
ultimi anni ha dato una particolare risonanza a quel settore della bioinformatica 
25 che si occupa dello studio del DNA e delle proteine. Grazie, quindi, 
airintroduzione dei metodi di sequenziamento automatizzato del DNA e ai molti 
progetti di sequenziamento del genoma, la quantita d'informazione su sequenze 
proteiche e aumentata a dismisura. La gran quantita di dati cosi prodotti necessita 
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di essere coUezionata, memorizzata e distribuita. 

Poiche la gestione di tale mole di dati richiede un uso intensive del computer, lo 
sviluppo dei database e uno del punti di forza del progetto genoma. I database 
devono essere progettatt accuratamehte e la loro architettura deve essere tale da 
5 contenere informazioni suUa mappa (per esempio la locazione fisica di un gene), 
sulle sequenze (nucleotidiche e proteiche) e devono emche fomire dei 
collegamenti a database contenenti informazioni di carattere scientifico e medico. 

Oggi tramite Internet sono facilmente accessibili una serie di banche dati in cui i 
laboratori di genetica di tutto il mondo riversano quotidianamente i dati da loro 

10 prodotti, sviluppando inoltre strumenti per Tanalisi e il confronto di queste 
informazioni; I maggiori database pubblid che memorizzano sequenze 
nucleotidiche sono: GenBank (http://www,ncbi.nlm.nih.gov/), EMBL (European 
Molecular Biology Laboratory, http://www.ebi.ac.ulc/Information/index.html) e 
DDBJ (DNA DataBase of Japan, http://www.ddbj.nig.ac.jp). I piii comuni 

15 database che memorizzano sequenze proteiche sono: PIR (Protein Identification 
Resource - National Biomedical Research Foundation), Swissprot e GenPept 
(entrambi distribuiti con GenBank). In aggiunta alle informazioni sulle sequenze, 
essi contengono informazioni sui motivi regolatori delle proteine e sulle altre 
caratteristiche della struttura delle proteine. 

20 In generale, questi database contengono informazioni circa le sequenze geniche 
note, quali ad esempio informazioni riguardanti i "domini funzionali" o attributi 
(le cosiddette "ontologies") di uno specifico prodotto del gene (gene product). 
Esempi di attributi di un prodotto del gene sono la funzione molecolare^ 
(molecular function), i\ processo biologico^ (biological process) e la componente 



^ Con 11 termine funzione molecolare si indica la capacita che un gene potenzialmente ha, Tattivita 
biochimica del prodotto del gene, do che esso pud fare senza specificare dove o quando questo 
awiene. Esempi di tali termini sono "enzyme", "transporter", "ligand", 2adenylate cyclase" o 
"Toll receptor Hgand". 

^ II termine processo biologico si riferisce airobbiettivo biologico a cui il gene o il prodotto del 
gene contribuisce. Esempi di tali termini sono "cell growth and maintenance", "signal 
transduction", "pyrimidine metaboUsm" o "cAMP biosynthesis". 
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cellulare^ (cellular component). 

Questi attributi di un gene sono parametri di natura semantica, cioe espressi da 
parole scelte in un vocabolario controUato. La creazione di un simile vocabolario 
h un obiettivo del Gene Ontology Consortium (http://www.geneontology.org, 
5 http://genome-www.stanford.edu/saccharomyces/help/GO.html). 

Assodando a questi parametri semantic! corrispondenti valori numeric! e 
possibile applicare note tecniche di clustering per raggruppare geni che 
condividono simili caratteristiche semantiche. In questo modo si ^ottengono 
CLUSTERS di geni che presentano domini funzionali simili o attributi (ontologies) 
10 simili. 

In Figura 3 viene mostrato un esempio di report ottenuto eseguendo una query al 
sito LocusLink (http://www.ncbi.nlm.nih,gov/LocusL!nk/). La query e inoltrata 
inserendo I'accession number (identificativo univoco per la base dati specificata) 
del gene d'interesse (neir esempio mostrato I'accession number e D50497). Tra i 
15 risultati della query c! sono anche le ontologies, indicate nel riquadro ove 6 
presente il marchio Gene Ontology™ (marchio del Gene Ontology Consortium). 

Per meglio comprendere il significato deirespressione "dominio funzionale", si fa 
una breve digressione sulla struttura delle proteine che costituiscono il DNA. 

La STRUTTURA DELLE PROTEINE 

20 Nelle proteine alio stato nativo, le catene polipeptidiche non hanno una struttura 
tridimensionale disordinata o casuale, bensi, per ciascuna proteina, sono tutte 
disposte nello spazio nello stesso modo e si presentano come oggetti con una 
forma (struttura) identica in tutte le molecole di una data proteina. Cio dipende dal 
fatto che ogni molecola, inserita in un determinato ambiente, assume una 

25 disposizione nello spazio che consenta di stabilire il massimo numero possibile di 
interazioni sia tra atom! o gruppi di atomi che fanno parte della stessa molecola. 



^ II termine componente cellulare si riferisce si riferisce al sito nella cellula in cui un prodotto del 
geneeattivo. 
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sia tra atomi o gruppi di atomi delle molecole vicine. 

Si d adottata la convenzipne di distinguere diversi livelli di complessiti strutturale, 
descrivendo una struttura primaria, una strattura secondaria, una struttura terziaria 
e, in alcuni casi, una struttura quatemaria delle proteine. Va sottolineato, perd, che 
5 si tratta di un artificio descrittivo, in quanto i diversi livelli di complessita 
strutturale si integrano per dare origine a qualcosa di unitario, che e appunto la 
struttura tridimensionale specifica di ciascuna proteina nel suo complesso. 

La successione delle unita di amminoaddi prende il nome di struttura primaria e 
con essa si indica esattamente lo scheletro covalente della catena peptidica. Ogni 
10 proteina e caratterizzata da una propria specifica sequenza di aminoacidi, diversa 
da quella di ogni altra proteina. II DNA, quindi, contiene in codice le informazioni 
riguardanti la struttura primaria di tutte le proteine. 

E di fondamentale importanza, sapere anche come le catene peptidiche siano 
disposte ed associate nello spazio per capire come una proteina svolga determinate 
15 fiinzioni. 

La struttura terziaria, che rappresenta la struttura tridimensionale vera e propria 
della proteina, e diversa da proteina a proteina e consiste nel modo con cui la 
catena, in parte organizzata in struttura secondaria, si raggomitola per dare origine 
alia proteina nativa. Le porzioni di catene in strutture secondarie sono coUegate da 
20 tratti ad andamento irregolare che formano anse (loops), in alcuni casi dotate di 
una certa mobilita. II raggomitolamento non e casuale ed 6 fortemente 
condizionato dairambiente in cui la proteina si trova. II raggomitolamento della 
catena polipeptidica ha Timportante conseguenza di portare vicine le une alle altre 
le catene laterali di aminoacidi situati in punti lontani della struttura primaria. 

25 Questi "sottogomitoli" prendono il nome di "domini strutturali" della proteina. 
Spesso essi mantengono la loro stmttura anche quando vengono separati dal resto 
della proteina. 

A volte i domini strutturali svolgono una specifica sotto-fimzione nell'ambito 
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della funzione biologica della proteina (ad esempio, in certi enzimi un dominio 
svolge la funzione catalitica, mentre un altro e deputato a interagire con le 
sostanze che regolano Tattivita deU'enzima stesso): in questi casi, una relativa 
autonomia stmtturale di una parte della catena polipeptidica e associata ad una 
5 relativa autonomia fuhzionale. Questi domini strutturali vengono indicati come 
domini fumionali della proteina. E importante osservare che in un certo numero di 
proteine, che svolgono funzioni parzialmente simili, sono presenti domini simili 
che svolgono in tutte la stessa funzione. 

Gli algoritmi piu diffusi ed utilizzati per il raggruppameiito sono ralgoritmo di 
10 clustering gerarchico agglomerativo, il K-means e il SOM (Self Organizing Map). 
I risultati degli algoritmi di clustering utilizzati dipende dalla metrica utilizzata 
per definire il criterio di similarity tra sequenze geniche. Di conseguenza, due 
sequenze geniche che sono giudicate simili usahdo una certa metrica, possono 
essere giudicate molto diverse tra loro utilizzando una metrica diflferente. 

15 Attualmente la ricerca genomica e limitata all'uso degli algoritmi di clustering per 
rindividuazione di sequenze geniche che si comportano in maniera similare nel 
contesto di un determinato processo biologico. 

Un limite delle tecniche note di individuazione di gene networks e rappresentato 
dal fatto che non e possibile individuare sequenze geniche applicando piii criteri 
20 contemporaneamente pesati opportunamente al fine di determinare sequenze che 
possono essere anche difFerenti tra loro dal punto di vista dell'espressione genica 
nel tempo, ma che godono di proprieta specifiche di particolare interesse. 

SCOPO E SOMMARIO DELL'INVENZIONE 

E stato trovato ed e Toggetto della presente invenzione uii metodo per Tanalisi 
25 automatica deirinformazione genomica, al fine di identificare relazioni tra geni 
che concorrono ad uno stesso processo regolatorio. II metodo delFinvenzione 
consente di determinare relazioni complesse tra geni, che vanno oltre le semplici 
operazioni di clustering dei metodi noti che mirano alia determinazione di geni 
co-espressi o co-regolati. 
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II metodo deirinvenzione si applica ad una tabella di dati relativi all'andamento 
deirespressione genica nel tempo o relativa a condizioni di stress difFerenti, e non 
dipende dai metodo utilizzato per ricavare tale tabella. 

Dapprima si sceglie un criterio di raggruppamento (clustering) e lo si applica alia 
5 tabella ricavando delle sotto-tabelle di dati relativi a gruppi di geni (CLUSTERS) 
che soddisfano il criterio di clustering scelto. 

Si generano quindi tutte le possibili combinazioni di coppie di sotto-tabelle e si 
calcolano dei parametri caratteristici per i geni„ contenuti in tali sotto-tabelle. 
Infine si calcola per ogni combinazione un valore caratteristico con un algoritmo 
10 di decisione definito in fimzione di tali parametri, considerando i geni della 
combinazione come costituenti ima *Gene Network' se questo valore caratteristico 
eccede una soglia predefinita. 

Preferibilmente, si sceglie anche un insieme di criteri logid di filtraggio dei dati 
della tabella, generando altre sotto-tabelle di dati di gruppi di geni che soddisfano 
15 il rispettivo criterio logico e si calcolano le combinazioni tra coppie di sotto- 
tabelle, ottenute con i criteri logici o di raggruppamento. 

Preferibilmente, Talgoritmo di decisione 6 un algoritmo fuzzy i cui antecedent! e 
conseguenti sono definiti in funzione di questi paramelxi caratteristici. 

II metodo dell'invenzione e implementato da un relative sistema di identificazione 
20 di gruppi di geni co-espressi e co-regolati. II cuore di questo sistema di 
identificazione 6 un sotto-sistema intelligente che elabora i parametri caratteristici 
di gruppi di geni e produce in uscita dati di gruppi di geni identificati come *Gene 
Networks*. 

Preferibilmente, tale sotto-sistema intelligente e an sotto-sistema fuzzy addestrato 
25 off-line identificato mediante una rete neuronale. 

L'invenzione e piu precisamente definita nelle annesse rivendicazioni. 

Breve Descrizione DEI DisEGNi 
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I diversi aspetti e vantaggi dell'invenzione risulteranno ancor piu evidenti 
attraverso una descrizione dettagliata facendo riferimento ai disegni allegati, in 
cui: 

la Tabella 1 e un esempio di tabella di dati relativi all'espressione di geni; 

la Figura 1 e un diagramma dei livelli di espressione di geni in diversi istanti 

temporali relativamente ad uno stesso campione di DNA; 

la Figura 2 e un diagramma interpolate dei livelli di espressione di geni ad un 

istante prefissato relativamente a difFerenti campioni (Tl, T6) di DNA; 

la Figura 3 e un esempio di rapporto ottenuto eseguendo una query al sito 

LocusLink; 

la Figura 4 mostra una forma di realizzazione preferita di un sistema 
dell'invenzdone; 

la Figura 5 mostra dei possibili diagrammi di dispersione; 

la Figura 6 mostra degli esempi di diagrammi di dati correlati secondo una legge 
quadratica; 

la Figura 7 mostra possibili andamenti temporali di sequenze geniche; 

la Figura 8 mostra un set di dati per I'addestramento del sistema Fuzzy 

dell'invenzione; 

" la TabeUa '2 mostra un'insieme di valoii di espressione di geni del Uevito S. 
cerevw/ae in diversi istanti; 

la TabeUa 3 mostra delle informazioni ricavabili da Saccharomyces G«iome 
Database per dei geni riportati in Tabella 2; 

la Tabella 4 mostra dati relativi a dei geni della Tabella 2 che sono stati 

raggruppati in un CLUSTER; 

la Tabella 5 mostra possibili combinazioni tra gruppi di geni e il valore 
caratteristico associate a ciascuna combinazione; 

le Tabelle 6 e 7 mostrano dati relativi a geni raggruppati nei clusters 26 e 30; 
la TabeUa 8 riporta livelli di espressione di geni della combinazione tra i 
CLUSTERS delle Tabelle 6 e 7; 

la TabeUa 9 mostra i liveUi di espressione della Tabella 8 normalizzati tra 0 e 1; 
la TabeUa 10 mostra valori degli incrementi dei liveUi di espressione della 
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Tabella9. 

Descrizione di Alcune Forme di Realizzazione dell'Invenzione 

II metodo della presente invenzione consente di individuare gruppi di geni ('Gene 
Network') probabilmente coinvolti in un processo regolatore. Tale metodo e 

5 basato su un algoritmo di decisione che, diversamente dai metodi noti, identifica 
gruppi di geni co-espressi o co-regolati utilizzando contemporaneamente sia 
criteri di clustering che criteri logici di filtraggio. Da ciascun gruppo di geni cosi 
ottenuto si ricavano dei parametri caratteristici e, con un algoritmo di decisione 
basato su tali parametri caratteristici, si calcola un valore caratteristico: se tale 

10 valore caratteristico eccede una certa soglia prestabilita, allora il relativo gruppo 
di geni h identificato come 'Gene Network', altrimenti viene scartato. 

n notevole vantaggio di questa tecnica consiste nel fatto che vengono superati i 
limiti dei metodi attuali basati esclusivamente sul raggruppamento (clustering), 
consentendo di identificare un gruppo di geni come ima 'Gene Network' sulla base 
15 di piu criteri variandente combinati. 

Preferibilmente, tale algoritmo di decisione e un algoritmo fuzzy configurato in 
modo tale da individuare correlazioni tra geni all'intemo di una grossa mole di 
dati, corrispondenti all'espressione genica variabile nel tempo o relativa a 
condizioni difiTerenti di sequenze di geni immobilizzate su microarray. 

20 La rappresentazione schematica di una forma di realizzazione preferita di un 
sistema implementante il metodo dell'invenzione e riportata nella Figura 4. 

Sono presenti tre sotto-sistemi: 

1. Pre-elaborazione (clustering, FILTERING), che genera gruppi di tabelle usando 
criteri di raggruppamento e criteri logici di filtraggio. 

25 2. Elaborazione (GENERAZIONE COMBINAZIONI, ESTRAZIONE CARATTERISTICHE), 

che genera gruppi di geni candidati Gene Networks combinando coppie di sotto- 
tabelle ed estraendo parametri caratteristici per ogni combinazione di geni. 
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3. Sotto-sistema intelligente (SISTEMA NEURONALE, SISTEMA FUZZY, THRESHOLD), 
addestrato off-line, che produce in uscita gruppi di geni identificati come Gene 
Networks. 

II sotto-sistema intelligente e preferibilmente basato sulla logica Fuzzy, 
5 opportunamente addestrato off-line, in grado di attribuire ad ogni gruppo di geni 
candidati un valore caratterisstico mediante un algoritmo decisionale basato su Soft 
Computing: se questo valore caratteristico eccede una soglia prestabilita 
Threshold, allora il relativo gruppo di geni e identificato come costituente una 
Gene Network. 

10 Clustering e Filtering 

li sotto-sistema di pre-elaborazione (pre-processing) genera gruppi similari di 
sequenze geniche usando criteri di raggruppamento (clustering) e criteri logici di 
fdtraggio. Ci sono diversi criteri di raggruppamento noti in letteratura, come 
quelli qui di seguito elencati: 

15 • Gerarchico Agglomerativo; 

• Non gerarchico Kmeans; 

• Gerarchico Kmeans sequenziale; 

• Non gerarchico SOM; 

• Non esclusivo Fuzzy Clustering. 

20 Per ogni gene si riportano in ingresso m valori di espressione genica, relativi ad m 
esperimenti condotti in istanti temporali differenti o condizioni difierenti. II 
sistema genera un certo numero di gruppi di geni (CLUSTER) secondo il criterio 
utilizzato e le impostazibni scelte peir Tesecuzione. 

Ai fini dello studio delle Gene Networks, e interessante selezionare gruppi di geni 
25 che presentano altre caratteristiche, oltre la similarita dei profdi di espressione 
temporale. Questo e reso possibile mediante tecniche di filtraggio che seleziohano 
gruppi di geni, in base al valore assunto da uno o piu attributi del gene stesso. 
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La scelta dei criteri da utilizzare deve essere eseguita considerando Tidoneita dei 
criteri di clustering nel costituire gmppi di sequenze geniche simili. Ad esempio, 
se si vuole verificare Tinfluenza di gruppi estesi tra loro e verso singoli geni, e 
consigliabile usare un criterio logico di filtraggio stringente e algoritmi di 
5 clustering che generano gruppi estesi di CLUSTERS. Una simile scelta pud 
consistere in un metodo gerarchico accoppiato alia metrica di aggiomamento della 
matrice della distanze di tipo single linkage. 

I criteri di filtraggio sono tutti quei criteri logici che un utente pud impostare sui 
dati di una tabella. Ad esempio, un criterio di filtraggio puo consistere nel 
10 selezionare tutti quei geni il cui livello di espressione eccede un certo valore 
all'inizio delFesperimento. Un altro criterio di filtraggio puo essere quello di 
considerare quei geni il cui livello di espressione dopo 7 minuti dalFinizio 
dell'esperimento sia compreso in un certo intervallo e dopo 14 minuti sia 
compreso in un altro intervallo, ecc. 

15 G^nerazione di combinazioni e composizione di gruppi di geni candidati 
Gene Network 

Si supponga di aver generato K sotto-tabdle di geni (CLUSTER) con un criterio di 
raggmppamento e M sotto-tabelle di geni (filter) con criteri logici di filtraggio. 
Secondo il metodo deirinvenzione, si generano tutti i possibili gruppi di geni 
20 ottenuti combinando le sotto-tabelle a coppie: 



1. 



0 



- 5i ^ combinazioni di tipo CLUSTER-CLUSTER; 



(x-iym 2 

M^ M\ M*(M-1) 



(M-2)*2! 



combinazioni di tipo FILTER-FILTER; 



3. K*M combinazioni di tipo CLUSTER-FILIER. 

Di queste combinazioni, preferibilmente sono essere scartate quelle che danno 
25 origine a gruppi con un numero di geni minore di una soglia prestabilita e quelle 
che danno origine a gruppi gia formati da una precedente combinazione. 
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Ogni gene della combinazione puo essere referenziato con una stringa che ne 
indica il gruppo di provenienza. Ad esempio, un gene e etichettato con C2 se il 
gruppo di provenienza e il cluster 2. In una combinazione del tipo FILTER-FILTER o 
CLUSTER-FILTER, un gene presente in entrambi i gruppi e etichettato con F,F, o 
5 C/Fy, dove i pedici / e j indicano gli indici del CLUSTER o del FILTER di 
provenienza. 

Qualora si voglia esaminare come il comportamento di un certo gene influenzi un 
intero CLUSTER, e preferibile generare combinazioni tra un FILTER costituito solo 
da quel gene e gruppi (clusters) costituiti da piu geni. 

10 Estrazione delle caratteristiche 

La fase piu significativa e costituita daU'estrazione delle caratteristiche dal 
momento che esse stesse indicano la tipologia di correlazioni che si vuole 
individuare. Secondo un aspetto innovativo della presente invenzione, si usano 
parametri di natura numerica^ legati al profilo di espressione genica, e parametri 
15 che mvece rappresentano un contenuto semantic©, o parametri misti, ottenuti 
come combinazione di entrambi gli dementi. Un esempio di parametro di natura 
semantica e la rappresentazione numerica dei domini fiinzionali della sequenza 
aminoacidica omologa corrispondente alia sequenza nucleotidica di partenza 
immobilizzata su microarray. 

20 Un parametro di natura semantica considerato nell'analisi del gene network e, ad 
esempio, la percentuale di geni della combinazione con lo stesso dominio 
fiinzionale. A questa percentuale corrisponde tm numero tra 0 e 1, Se il valore del 
parametro e unitario, tutti i geni della combinazione in esame hanrio lo stesso 
dominio fiinzionalk Se il valore i nullo, i geni non hanno nessun dominio in 

25 comune, mentre in tutti gli altri casi il parametro asstmie un valore compreso tra 0 
el. 

Un altro parametro di natura semantica, analogamente al caso precedente, e 
relativo alia percentuale di geni che presentano attributi (ontologies) uguali o 
appartenenti ad una stessa categoria. E mtuitivo il fatto che potrebbero essere 
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considerati altri parametri semantici estendendo questa analisi ad altre 
caratteristiche semantiche delle sequenze geniche, Va inoltre sottolineato che 
questi parametri si riferiscono a caratteristiche di natura semantica ma sono 
espressi in forma numerica. 

5 Secondo una forma preferita di realizzazione del metodo dell^invenzione, sono 
usati sei parametri di natura numerica PI, P6. Ogni parametro ha un range di 
variazione tra zero e uno. 

n primo parametro PI 6 uguale al modulo del coefBciente di correlazione lineare 
tra le espressioni di coppie di geni della stessa combinazione se la correlazione e 
10 positiva, altrimenti e nullo. II secondo parametro P2 e analogo a PI, ma e nullo se 
la correlazione lineare e positiva. II terzo parametro P3 mdica il valore della 
correlazione quadratica della combinazione. Quanto piu prossimo a uno e il valore 
della correlazione, tanto piu i geni della combinazione sono correlati. 

n quarto parametro P4 indica la percentuale di geni del gruppo che ha il valore di 
15 espressione genica finale (cioe Tultimo attributo del gene) maggiore o minore del 
valore di espressione genica iniziale (primo attributo). In pratica, si calcola la 
percentuale di geni che ha lo stesso comportamento . dal punto di vista della 
variazione complessiva. 

n quirito parametro P5 indica la percentuale di geni del gruppo che ha lo stesso 
20 andamento temporale (crescente o decrescente). Infine, Tultimo parametro P6 
indica la percentuale di geni che presenta un*escursione massima (picco) nello 
stesso istante temporale. 

I parametri ihtrodotti hanno lo scopo di verificare se il gmppo di geni in esame e 
costituito da geni espressi diflferentemente che partecipano ad uno stesso processo 
25 regolatorio e pertanto se le relazioni tra gli stessi possano essere modelizzate 
mediante una rete dinamica regolatoria (Gene Network). 

Ilfatto di usare questi sei parametri al fine di determinare gruppi di geni co- 
espressi e co~regolati permette di avere un metodo di identificazione robusto e 
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capace di un discernimento multiobiettivo. E necessario ricordare che I'approccio 
puo essere generalizzato a qualsiasi parametro d'interesse che esprima una 
correlazione di qualsiasi natura tra valori di espressione e geni. 

Inoltre e possibile usare parametri che possono avere o completamente un 
5 significato biologico di natura semantica oppure a parametri misti e piu complessi 
che esprimono contemporaneamente una relazione di correlazione numerica e una 
di correlazione semantica. In quest'ultimo caso si deve far uso di database estemi 
che possono essere interrogati e di un'elaborazione dei dati ritomati per una loro 
codifica numerica che esprime Teventuaie correlazione semantica. 

10 Nel seguito, si esamina in dettaglio il significato dei sei parametri proposti. 

Parametri relativi alia correlazione (PI, P2, P3) 

; La correlazione indica il grado di relazione tra geni. Per mezzo di essa si cerca di 
determinare quanto bene un'equazione lineare o un'altra equazione qualsiasi 
descrivono o spiegano tale relazione. 

15 Se con X e y si indicano le due profili di espressione temporali o geniche da 
esaminare, si puo costruire in un sistema di coordinate cartesiane un diagramma a 
dispersione, Se tutti i punti del diagramma a dispersione giacciono intomo ad una 
retta, la correlazione e detta lineare. In tal caso T equazione che lega le due 
variabili e un'equazione lineare: 

20 Y^a+bX (1) 

Se 7 tende a crescere al crescere di X, la correlazione e detta positiva o diretta. Se 
7 tende a decrescere al crescere di X, la correlazione e detta negativa o inversa. Se 
non c'e alcuna relazione lineare tra le due sequenze, si dice esse che sono 
incorrelate. 11 grado di correlazione lineare tra due sequenze geniche h dato dal 
25 coefficiente di correlazione lineare cosi definito: 
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rxx-xxr-Y)^ -i^^^i (2) 

in cui la sommatoria va da 1 a w (con m numero di livelli di espressione calcolati 

per ciascun gene) e X = — — q Y = rappresentano i valori medi. 

m tn 

La correlazione lineare, e massima quando il coefficiente p in modulo e uguale a 1 
5 (il segno dipende dal fatto che una variabile cresca o diminuisca al crescere 
dell'altra). La Figura 5 illustra degli esempi di diagranuni a dispersione. 

Un valore nuUo del coefficiente di correlazione lineare implica soltanto I'assenza 
di una correlazione di tipo lineare, tuttavia due sequenze possono essere 
fortemente dipendenti e non presentare una forte correlazione di tipo lineare. Un 
10 caso tipico e quello dei punti nel piano distribuiti lungo una circonferenza. 

La correlazione tra due sequenze geniche pud talvolta essere di tipo quadratico, 
cioe la relazione che legaXe Yh Tequazione di una parabola: 

y=a+feAr+c^ (3) 

in cui a e una costante, h e il coefficiente di accrescimento lineare e c rende conto 
15 della curvatura rapportando Y ai quadrati di X, 

La Figura 6 mostra degli esempi di correlazione quadratica. 

In generate, qualunque sia la relazione che lega AT e 7, si definisce coefficiente di 
correlazione, la quantity: 



20 Dove Ystim e il valore interpolato di 7 mediante il metodo dei minimi quadrati. Si 
osservi che r e una quantita non dimensionale, cioe non dipende dairunita di 
misura impiegata. Se la relazione tra e 7 e lineare, r coincide con il coefficiente 
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di correlazione lineare, altrimenti assume un significato piu generale. Inoltre, nel 
caso in cui la relazione sia lineare, 

cioe la quantita r d la stessa indipendentemente dal fatto che X oppure Y sia la 
5 variabile indipendente. In generale 

Per quanto riguarda i parametri estratti, come si e gia detto, i primi tre si 
riferiscono appunto alia correlazione lineare e a quella quadratica. Si supponga 
ora di considerare una delle combinazioni generate e si assuma che il 
10 corrispondente gruppo sia costituito da n geni. Quando si ha a che fare con un 
numero di sequenze geniche maggiore di due, in luogo del coeflBciente di 
correlazione lineare si considera una matrice di correlazione lineare R cosi 
definita: 





1 PX2 •• 


■ An 






P^^ 1 •• 




(5) 




Pnl Pr,2 ■ 


.. 1 





15 essendo Pij il coeflBciente di correlazione tra le sequenze del gene i con U gene/ 
Owiamente il coeflBciente di correlazione di una sequenza genica con se stessa e 
uguale uno, owero pn=l per ogni i=l,,.,,n. 

Se per ogni i^^j risulta pif=0, le n sequenze geniche sono incorrelate. In questo caso 
il determinante della matrice R vale 1, mentre in generale esse e compreso tra 0 e 
20 L Tenendo conto che pir=l e che Po=Pih il numero di coeflBcienti calcolati e pari 

a: 



2) («-2)*2! 



(6) 
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Calcolati questi valori, si suddivide I'lntervallo di valori tra 0 e 1 in sotto- 
intervalli, ad esempio in cinque sotto-intervalli uguali di ampiezza 0.2 e si conta il 
numero dei coefBcienti che cade in ciascun sotto-intervallo. Ad ogni sotto- 
intervallo, inoltre, e associate un valore di correlazione, ad esempio pari, 

5 rispettivamente, a 0.1,0.3,0.5,0.7,0.9. Se in uno dei cinque sotto-intervalli cade un 
numero di coeflBcienti maggiore del 50% del totale, al primo parametro 6 
assegnato il valore di correlazione corrispondente a quell'intervallo. Nel caso in 
cui, invece, i coefficienti siano distribuiti in maggioranza fra due intervalli, al 
primo parametro viene assegnato un valore che e pari alia media fra tali due 

10 intervalli. 

Si assuma ad esempio che ni coefficienti cadano nel sotto-intervallo al quale e 
associato un valore di correlazione vi, ed n2 coefficienti cadano nel sotto- 
intervallo con valore di correlazione V2. Si assuma, inoltre, che («i+ii2)>50% del 
numero totale dei coefficienti distribuiti tra i cinque intervalli. II valore assegnato 
15 al primo parametro Pie datp da: 

Pi^klfii}:^ (7) 

Infine, nel caso in cui, la maggioranza dei coefficienti e distribuita in piu di due 
intervalli, al primo parametro viene assegnato il valore medio di tutti i 
coefficienti. Nel calcolo del primo parametro si considerano solo i coefficienti 
20 pij>0. 

Per il calcolo del secondo parametro P2, relativo alia correla^one lineare 
negativa, si procede in maniera analoga al caso precedente considerando pero i 
coefficienti pij<0 e suddividendo in cinque intervalli uguali, Tintervallo compreso 
tra-1 eO. 

25 Per quanto riguarda I'estrazione del terzo parametro P3, per il calcolo dei 
coefficienti di correlazione si e considerata la forma piu generale del coeffidente 
di correlazione data dalla (4). Tenendo conto che rxs^ryxy il numero dei 
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coefficienti da calcolare, nel caso di una combinazione con n sequenze geniche, e: 

n^inA) (8) 

II calcolo di r implica la conoscenza di Ystim^ owero del valore interpolate di Y 
mediante il metodo dei minimi quadrati. La parabola dei minimi quadrati 
interpolante I'insieme dei puriti {Xf, Yi\ con /=1, n e espressa dall'equazione 
(3): 

Y=a+bX+cX^ (3) 

dove i coefficienti a, b e c vengono determinati risolvendo simultaneamente le tre 
equazioni: 

^J:XY = aY^X -h ^ ' + (9) 
Y^X^Y ^aY,X^ -rhY^X^ ^c^X^ 

dette equazioni normali della parabola dei minimi quadrati, 

Noti i valori delle costanti, e sostituendoli nella (3), si ricava il valore Ystim e 
quindi il valore di r. 

Al terzo parametro viene assegnato il valore medio degli coefficienti di 

correlazione cosi calcolati. 

Ci si aspetta che le combinazioni del tipo CLUSTER-CLUSTER abbiano valori di 
correlazione piuttosto elevati, in quanto, gia di per se, il clustering seleziona 
gruppi.di. geni.ad.alta correlazione. Cio non toglie, che anche combinazioni del 
tipo CLUSTER-FILTER 6 FILTER-FILTER possano avere valori elevati di correlazione. 
In generale perd il parametro di correlazione da indicazioni piu complete rispetto 
a quelle fomite dal clustering^ Per chiarire questo aspetto, si consideri il seguente 
esempio: si supponga di considerare due sequenze geniche X ^Y costituite da tre 
valori di espressione temporale, ^^=[1; 5; 7] e K=[10; 50; 70]. La relazione che 
legaXe Yh Y=\OXq^ pertanto il coefficiente di correlazione lineare e unitario. 
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Tuttavia i criteri di clustering non mettono in evidenza questo tipo di relazione. La 
maggior parte delle tecniche di clustering implementate, infatti, fa uso di metriche 
di distanza. Due sequenze geniche con valori di espressione genica molto simili 
sono raggruppate nello stesso CLUSTER in quanto identificano punti nello spazio 
5 /M-dimensionale molto vicini. 

Neiresempio citato, invece, pur esistendo una relaaone lineare tra le due 
sequenze, queste identificano punti dello spa2do distanti tra loro e quindi, 
probabilmente, non appartenenti ad uno stesso CLUSTER. L'unico criterio di 
clustering che fa eccezione a questa regola, e il metodo agglomerativo che fa uso 
10 del coeflSciente di Pearson. Infatti, questa metrica e una misura di similarita e non 
di distanza e non soddisfa le proprieta metriche. 

Parametri relativi al profilo di espressione 

Gli ultimi tre parametri estratti, P4, P5 e P6 riguardano la similitudine tra le 
sequenze geniche in termini di profilo di espressione variabile nel tempo o nelle 
15 condizioni. In particolare, si considera il segno della variazione complessiva, il 
tipo di andamento (crescente o decrescente) e la presenza di escursioni massime in 
corrispondenza dello stesso istante temporale. 

n quarto parametro indica la percentuale di geni che si comportano in maniera 
simile dal punto di vista della variazione complessiva del valore di espressione 
20 genica. 

Per ogni sequenza genica della combinazione in esame, si calcola la variazione tra 
il valore di espressione genica finale (cioe relativa all'ultimo attributo) e quella 
iniziale (relativa al primo attributo), preferibilmente tenendo conto solo del valore 
assoluto della variazione prescindendo dal segno. Noto il numero di sequenze 
25 geniche che ha im valore di espressione genica finale maggiore di quelle iniziale, 
si calcola la percentuale di sequenze. che ha una variazione positiva. A questa 
percentuale corrisponde un numero compreso tra zero e uno che viene assegnato 
come quarto parametro. 
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In pratica, piu la percentuale di geni, aventi la stessa variazione, si avvicina al 
50%, piu il valore del quarto parametro P4 si avvicina a 0. Piu invece la 
percentuale si avvicina al 100%, piu il parametro P4 si avvicina a 1, in quanto la 
maggior parte dei geni del gruppo si comporta alio stesso modo. 

5 Nel caso in cui la percentuale e bassa e prossima a 0,il valore del parametro e 
elevato e tende a L Cio e dovuto al fatto che percentiiali basse di geni aventi una 
variazione positiva, implicano percentuali elevate di sequenze con variazione 
negativa. Questo parametro mira, infatti, all'individuazione di gruppi di geni con 
un comportamento simile dal punto di vista della variazione complessiva del 
10 valore di espressione genica, prescindendo dal segno della variazione. Infine, 
percentuali del 70%, o equivalentemente del 30%, danno origine a valori del 
parametro prossimi a 0.5. 

Tuttavia, va considerate il fatto che una sequenza genica con un valore di 
espressione genica finale maggiore di quello iniziale hon necessariamente 
15 presenta un andamento temporale crescente, e viceversa, una variazione negativa 
non implica un andamento decrescente. Per identificare una gene network, e 
importante identificare, geni che presentino un simile andamento temporale, 
crescente o decrescente, prescindendo dai valori dei singoli attributi. A tal 
proposito si consideri la Figura 7. 

20 Le tre sequenze geniche esemplificate A, B, hanno un andamento crescente, 
nonostante il fatto che gli andamenti sono completamente diversi e i valori di 
espressione genica difFerenti tra loro. Inoltre la sequenza A, pur avendo un 
andamento complessivamente crescente, ha una variazione negativa tra il valore 
finale e quella iniziale. Questo dettaglio sfiigge ai criteri di clustering e non viene 

25 evidenziato dai quattro parametri introdotti in precedenza. 

Per tale motivo e stato introdotto un quinto parametro P5 che tenga conto di 
questa caratteristica. Per ogni combinazione, si calcola la percentuale di geni che 
presenta un profile di espressione crescente. In corrispondenza del valore 
percentuale ottenuto, viene assegnato al parametro un valore compreso tra 0 e 1. 
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La procedura di assegnazione e molto simile a quella illustrata per il quarto 
parametro: ad un valore percentuale molto basso o molto alto corrisponde un 
valore del parametro tendente a 1, invece un valore basso del parametro, tehdente 
a 0, scaturisce da un valore percentuale prossimo al 50%. 

II sesto parametro P6 riguarda Tindividuazipne, alFintemo del gruppo, di 
sequenze geniche con un'escursione massima nello stesso istante temporale. 

Un agente estemo, come ad esempio la somministrazione di una determinata 
sostanza o la variazione delle coridizioni ambientali, quale ad esempio un 
innalzamento o im abbassamento della temperatura, potrebbe provocare un forte 
aumento o una forte diminuzione del livello di espressione genica. La presenza di 
picchi, in corrispondenza dello stesso istante temporale, pud portare. 
airindividuazione di un gruppo di geni che risponda in maniera simile in presenza 
di un agente estemo. 

Tehendo conto che i valori di espressione genica sono stati normalizzati e quindi. 
variano tra 0 e 1, si considera un valore di soglia pari a meta delPampiezza 
deirintervallo di normalizzazione (0.5). 

Per ogni sequenza, appartenente alia combinazione da esaminare, si calcola il 
valore di escursione massima. Se nessun gene della combinazione ha 
un'escursione massima che supera la soglia, viene assegnato un valore nullo 
20 all'ultimo parametro P6. Se tutti i geni del gruppo presentano un (cioe una 

variazione massima maggiore della soglia) in corrispondenza dello stesso istante 
temporale, al parametro 6 assegnato un valore unitario. In tutti gli altri casi al 
parametro e assegnato un valore che e pari alia percentuale di geni che presenta un 
picco nello stesso istante. 

25 Sotto-sistema intelligente 

II sotto-sistema intelligente proposto e basato su metodologie di Soft Computing,, 
preferibilmente si tratta di un sistema neuro-fuzqr in cui le regole 

1. possono essere introdotte dairutente in maniera linguistica attraverso clausole 
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deltipoIF.THEN; ; 

2. possono essere generate mediante Tausilio di una rete neurale con pesi e 
soglie rappresentanti i parametri caratteristici. 

Relativamente al secondo caso, il sotto-sistema deve essere preventivamente 
addestrato (off-line learning) con un opportune insieme di dati (matrice di 
learning), come quello esemplificato in Figura 8. 

Nel funzionamento on-line, Tuscita del sistema Fuzzy (valore caratteristico) e 
confrontata con un valore di soglia THRESHOLD: Tra i gruppi' di geni ottenuti, 
quelli a cui e associate un valore caratteristico superiore alia soglia THRESHOLD 
vengpno identificati come Gene Network, mentre gli aJtri gruppi vengono scartati. 

ESEMPIO APPLICATFVO 

Al fine di rendere piu chiaro il metodo dell'invenzione, se ne mostra un esempio 
di applicazione. I dati in ingresso sono costituiti dai livelli di espressione genica di 
opportune sequenze da esaminare. La Tabella 2 mostra una porzione del set di dati 
utilizzati per Tesperimento proposto. 

Nella prima colonna della Tabella 2 sono riportati gli accession number dei geni, 
che in questo caso specifico appartengono al genoma del lievito S. cerevisiae (si 
osservi che la prima lettera di ogni accession number e Y che sta per "yeast", che 
in inglese vuol dire "lievito"). Per ogni gene sono stati. estratti i livelli di 
espressione genica temporalmente (il nome deiresperimento e ALPHA 
caratterizzato da 18 istanti temporali) alia fine di un ciclo di divisione cellulare 
dopo la sincronizzazione mediante il fattore di arresto alpha. Tutte le misure sono 
state efifettuate prendendo il valore di- espressione . genica all'iistante t=0 come 
campione di riferimento (seconda colonna della tabella); le altre colonne, come si 
osserva dalla Tabella 2, si riferiscono ai livelli di espressione genica misurati 
rispettivamente dopo 7 min, 14 min e cosi via dall'esperimento. 

Per ciascun gene, identificato dal corrispondente accession number, e possibile 
avere delle informazioni aggiuntive, quali ad esempio la descrizione 
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(Description), la categoria fiinzionale (Molecular Function) e le annotation 
(Biological Process) del gene specifico. Queste informazioni sono disponibili nel 
Saccharomyces Genome Database. Un esempio e mostrato nella Tabella 3. 

Risultati ottenuti con un criterio di raggruppamento 

5 Sono state considerate 1533 sequenze geniche relative al genoma del lievito. 
Ciascuna sequenza e costituita da diciotto livelli di espressione genica^ 
corrispondenti ai valori misurati nel tempo, ad intervalli di 7 minuti, dopo 
Tesperimento ALPHA (istante /=0). 

Queste sequenze sono state raggruppate mediante I'algoritmo K-means adottando 
10 un numero di centroidi iniziale pari a SO e un metodo random di generazione dei 
centroidi. 

Alia fine del processo di clustering sono state ottenute 50 sotto-tabelle (clusters) 
pari al numero di centroidi scelto inizialmente nella fase di selezione dei 
parametri. Questa condizione indica il fatto che non si e avuta la formazione di 
15 CLUSTER vuoti, che eventualmente sarebbero stati scartati alia fine del processo di 
raggruppamento. 

Nella Tabella 4 e mostrato il contenuto del file kmyeast50,txt relativo al 
cinquantesimo CLUSTER costituito da 9 sequenze geniche. Nel file sono indicati gli 
accession number (GrenBank) e i diciotto valori di espressione genica delle 
20 sequenze (parajMETERS) costituenti il CLUSTER. 

Fase di Filtraggio 

Secondo Tinvenzione si puo opzionalmente eflfettuare una fase di filtraggio 
mediante la quale h possibile selezionare alcune delle sequenze geniche in esame 
in fiinzione dei valori di espressione assunti nei diversi istanti temporali. Ad 
25 esempio si possono filtrare tutte le sequenze che all'istante ^=0 hanno un valore di 
espressione genica maggiore di zero oppure si puo considerare un criterio di 
filtraggio relativo a piu parametri contemporaneamente. Tuttavia questa fase, 
come gii detto, e opzionale e quindi per semplicita neir esempio riportato non e 
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stata considerata. 
Generazione di combinazioni 



In questa fase vengono generate tutte le combinazioni di tipo cluster-cluster. 
E evidente che nel caso in cui fosse stata eseguita la fase di filtraggio sarebbero 
state generate anche le combinazioni di tipo filter-filter e CLUSTER-FESTER. 

In questo caso, considerando che il numero di combinazioni e dato da 
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^' _ ^*(^ ^) e tenendo -conto che . il-numero AT-di CLUSTER 
(K-2}*2\ 2 

genbrato rieUa fase precedente d pari a 50, si e ottenuto un numero di 
combinazioni pari a 1225. 

10 Per ciascuna combinazione sono stati estratti i sei parametri di natura numerica 
PI, P6 introdotti precedentemente. In fUnaone dei parametri estratti il sotto- 
sistema intelligente ha assegnato a ciascuna combinazione un valore caratteristico 
compreso tra 0 e 1. Tutte le combinaaoni con im valore carattoistico (grado di 
Gene Network), maggiore di una predeterminata soglia sono state individuate 

15 come posMbili Gene Network. In questo esempio 6 stato considerato un valore di 
soglia pari a 0. 5 e sono stati individuati sei possibili Gene Networks. 

Nel file gnyeasLtxt mostrato in Tabella 5 sono indicate tutte le informazioni 
riguardanti le combinsizioni generate. 

Nella prima colonna sono indicati i nomi dei files contenenti informazaoni piu 
20 dettagliate suUe combinazioni generate. I nomi dei files che iniziano con la lettera 
X si riferiscono alle combinazioni a cui il sotto-sistema intelligente ha assegnato 
un grado minore di 0.5; i rimanenti files, invece, si riferiscono alle combinazioni 
che il sistema ha identificato come possibili gene network e che in questo caso 
specifico sono 6. .. 

25 Nella seconda colonna e riportato il numero di sequenze geniche costituente la 
combinazione in esame, mentre nelle rimanenti colonne d indicato il tipo di 
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combinazione (esempio CLUSTER22-CLUSTER26). 

L'ultima colonna rapprfesenta il valore assegnato dal sistema neuro-fuzzy 
precedentemente addestrato. E evidente che quanto piii il grado assegnato e 

J prossimo all'unitd, tanto piu la combinazione in esame si presta meglio ad essere 

5 una possibile rete regolatoria. Viceversa, quanto piu il grado d'uscita e prossimo a 
zero, tanto maggiore e Tincertezza sulla possibility che la combinazione abbia una 

; relazione intrinseca. 

Ad esempio (terza riga), alia combinazione tra il GLUSTER26 (C26), costituito da 9 
sequenze gemche, e il CLUSTER30 (C30), costituito da 21 sequenze, e stato 
10 assegnato un grado pari a 0.67 e pertanto e stata indicata come possibile gene 
network. Nelle Tabelle 6 e 7 sono riportate le informazioni relative al CLUSTER26 
(C26) e al CLUSTER30 (C30). 

Tutte le informazioni necessarie relative al data set combinato soho illustrate per 
completezza nella Tabella 8. 

15 Nella seconda colonna della Tabella 8 d indicato il CLUSTER di provenienza deUa 
sequenza genica il cui accession number e riportato nella prima colonna. Oltre ai 
valori di espressione genica delle sequenze costituenti la combinazione, sono stati 
anche riportati i valori dei sei parametri estratti e il relative grado d*uscita 
assegnato dal sistema esperto. 

. 20 Tralasciando il calcolo dei primi tre parametri PI, P2 e P3 relativi alia 
correlazione lineare e quadratica della combinazione, per maggiore chiarezza 
viene riportata la procedura relativa al calcolo di P4, P5 e P6 per la combinazione 
C26-C30 indicata in Tabella 8. 

Calcolo diP4 

^ 25 Per il calcolo del parametro P4, percentuale di geni con valore finale maggiore del 

valore iniziale, si deve considerare, per ogni sequenza della combinazione, la 
variazione A tra il valore di espressione genica corrispondente airultimo istante 
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temporale aip/iall9 e il valore di espressipne corrispondente al primo istante 
alphaO, Per la prima sequenza, YPR120C, la variazione A e pari a: 

A = -0.43 -(-0.92)= 0.49 => A>0 

Questo calcolo viene eiFettuato per tutte le sequenze della combinazione. Si 
5 ottiene che 21 sequenze su 30, owero il 70% delle sequenze ha una variazione 
positiva (A>0). Questa percentuale, che nel seguito sara indicata con la variabile 
"VALORE_PERCENTUALE" e poi convertita in un valore compreso tra 0 e 1 . 

La procedura di conversione d la seguente: 

• Se VALORE JPERCENTUALE=50%, a P4 e assegnato un valore nullo. 

10 • Se 50%<VALORE_PERCENTUALE<70%, a P4 e assegnato un valore compreso 
tra 0 e 0.5 (piii alto e il valore percentuale, piu alto h il. valore del parametro). 

• Se 70%<VALORE_PERCENTUALE<100%, a P4 e assegnato un valore compreso 
tra 0.5 e 1 (piu alto e il valore percentuale, piu alto e il valore del parametro). 

• Se 30%<VALORE_PERCENTUALE<50%, a P4 e assegnato un valore compreso 
15 tra 0 e 0.5 (piu basso e il valore percentuale, piu alto e il valore del parametro). 

• Se 0%<VALORE_PERCENTUALE<30%, a P4 e assegnato un valore compreso tra 
0.5 e 1 (piu basso e il valore percentuale, piu alto e il valore del parametro). 

In pratica, piu la percentuale di geni aventi la stessa variazione h prossima al 50%, 
piu il valore del quarto parametro P4 si approssima a 0. Piu invece 
20 VAIX)REJPERCENTUALE si awicina al 100%, piu il parametro P4 si awicina a 1, in 
quanto la maggior parte dei geni del gruppo si comporta alio stesso modo. 

Nel caso in cui la percentuale h bassa e prossima a 0, il valore del parametro P4 h 
elevato e tende a 1 . Cio e dovuto al fatto che percentuali basse di geni aventi una 
variazione positiva (A>0), implicano percentuali elevate di sequenze con 
25 variazione negativa (A<0). Questo parametro consente di individuare di gruppi di 
geni con un comportamento simile dal punto di vista della variazione complessiva 
del valore di espressione genica, prescindendo dal segno della variazione. 



30 



Nell'esempio considerato, dato che il valore percentuale e pari a 70%^ a P4 viene 
assegnato un valore pari a 0.5 (si veda Tabella 8). 

CalcoIodiPS 

Per il calcolo del parametro P5, percentuale di geni con lo stesso andamento 
temporale, si deve veiificare, per ogni sequenza della combinazione, se il profilo 
di espressione e crescente o decrescente. Dato che i valori di espressione genica . 
sono discretizzati nel tempo, bisogna calcolare le variazioni A/ tra il valore di 
espressione genica corrispondente airistante (/)-esimo e il valore di espressione 
corrispondente all'istante (/-l)-esimo per i=l,2, .... « e con n uguale al numero di 
esperimenti. In questo caso specifico n=lS e per ogni sequenza vengono calcolati 
n-l (17) valori di variazione. 

Ad esempio, per la prima sequenza YPR120C i valori A/ sono i s^enti: 
Al = alpha1-alphaO '= -0.32 - ( 0.92) = 0.6 > Q 
A2 = alphal4-alpha7 = 0.98 - (-0.32) = 1 .3 > 0 
A3 = a^/2a21 -a^/ial4 = 1.03-0.98 = 0.05 > 0 
A4 = alphalS-alphcUl = 0.32 -1 .03 < 0 
A5 = aIpha35-alpha2S = -0.03-0.32 < 0 
A6 = alpha42-alpha35 = -0. 12+0.03 < 0 
A7 = a4?/ia49^//7/w42 = -0.34+0. 12 < 0 
A8 = alpha56-alpha49 = -0.29+0.34 > 0 
A9 = af^Aa63-a^Aa56 = -0.27+0.29 > 0 
AlO = a//?/?a70-a//7Aa63 - 0.76+0.27 > 0 
AH = alphall-alphalO = 0.67-0.76 < 0 
A12 = alphaS4-alpha77 = 0.37-0.67 < 0 
A13 = alpha91-alphaS4 = -0.17-0.37 < 0 
A14 = a//>/ia98-a//7/ia91 = 0. 16+0. 17 > 0 
A15 = a§7/Kil05-a^;Ki98 = -0.14-0.16 < 0 
A16 = alphal 12-aIphalOS = -0. 1 5 +0. 14 < 0 
Al 7 = alphal \9-alpha\ 12 = -0.43 +0. 1 5 < 0 
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. Se il numero di variazioni A/ positive e maggiore del numero di variazioni A/ 
negative, la sequenza ha un profile temporale complessivamente crescente; 
viceversa la sequenza ha un profile complessivamente decresente. 

Nel caso della sequenza YPR120C, il numero di variazioni A/ positive e 7, mentre 
5 il numero di variazioni Ai negative e 10. Dato che il numero di variazioni Ai 
positive 6 minore del huniero di variazioni Ai negative, alia sequenza viene 
attribuito un profilo di espressione temporale decrescente. 

' " Lo stesso calcolo viene ripetuto per ognuna delle rimanenti 29 sequenze della 
combinazione illustrata in Tabella 8, ottenendo che una certa percentuale di 
10 sequenze (indicata in seguito con la variabile "PERCENT"), ha un profilo temporale 
complessivamente crescente. A questo valore percentuale viene associate un 
parametro P5, avente un veilore compreso tra 0 e 1, con una procedura ahaloga a 
quella esposta per il parametro P4. 

Nel caso considerate, si ha che 5 sequenze su 30, cioe il 16,7% ha un profilo 
15 temporale complessivamente crescente, per cui P5 assume un valore alto. Infatti 
1'83.3% delle sequenze ha un profilo decrescente e quindi una percentuale molte 
alta di sequenze si comporta in maiuera simile dal punte di vista deirandamente 
temporale. 

Si ribadisce che il valore del parametro P5 non dipende dal fatto che Tandamento 
20 complessivo della maggioranza dei geni e crescente o decrescente, ma da quanti 
geni della combinazione hanno lo stesso andamente complessivo. Nel caso 
esemplificato, il parametro (P5) e pressime airunita. 

Una pessibile procedura di valutazione di P5 e descritta con maggior dettaglie di 
seguito. 

25 Si definiscone tre valeri di seglia 

SOGLIAl=0.3; SOGLIA2=1-SOGLIA1=0.7; SOGLIA3=0.5; 

e in fiinzione dei valori di seglia vengono calcolati i seguenti valeri: 
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.valore1=((soglia2-soglia3)/(1-soglia3))=0.4; 

VALORE2=((2*SOGLIA2-H-SOGLIA3)/(2*SOGLIA3))=0.9; 

• Se SbGLIA2<=PERCENT<=l, P5=((PERCENT -VALOREl)/(l-VALOREl)); 

• SeO<=PERCENT<=SOGLIAl,P5=(((l-PERCENT)-VALOREl)/(l-yALOREl)); 
5 • Se 0.5<=PERCENT<SOGLIA2, P5=((percent-0.5)/(valore2-0.5)); 

• Se SOGLIAl<PERCENT<0.5, P5=(((1-PERCENT)-0.5)/(VALORE2-0.5)); 

Si osservi che ad una percentuale del 50% corrisponde un valore di P5 nullo 
perche, come si e gia ampiamente dettOi in questo easo non si ha un andamoito 
temporale complessivo (crescente o decrescente) predominante da parte delle 
10 sequenze costituenti la combinazione. 

Nell'esempio proposto (Tabella 8) il valore di P5 h dato da: 

P5=(((l_PERCENT)-VALOREl)/(l-VALOREl))=(l-0.167-0.4)/0. 6=0,72 

Calcolo diV6 

iPer il calcolo del parametro P6, percentuale di geni con massima escursione nello. 

15 stesso istante temporale, si verifica, per ogni sequenza della combinaaone, se in 
valore assoluto la variazione At supera un determinato valorie di soglia. Dato che i 
valori relativi ad ogni esperimento sono stati normalizzati tra 0 e 1, per il valore di 
soglia si e scelto 0.5 pari a meta deirarnpiezza deU'intervallo di normalizzazione. 
In Tabella 9 sono stati riportati i valori di espressione genica normalizzati tra 0 e 1 

20 delle sequenze costituenti la combinazione C26-C30. 

Per la sequenza YPR120C si ha che: 

,\A\\=^alpha7-alphaO\ = 0.307 
I A2 H alphalA-alphcn I = 0.666 

25 \An\Aalphan9-alpha\\l\ =0.14359 

Ripetendo questi calcoli per tutte le sequenze a ottengono i risultati riassunti in 
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TabellalO. . . _ 

I valori I A I che superano la soglia sono sottolineati. Per ogni sequenza il massimo 
valore I A I che supera la soglia rappresenta il picco (escursione massima) ed e 
racchiuso in un riquadro. Ad esempio, in corrispondenza della prima sequenza 
5 YPR120C si haimo due valori maggiori della soglia, I A2 I = 0.66 e I AlO I = 0.52; 
il picco in questo caso h rappresentato da I A2 1 . 

Si osservi che non tutte le sequenze necessariamente devono presentare un picco. 
" Neir esempio proposto le sequenze YJL115W, YCR065W, YOR074C, 
YKLl 13C, YKL076W, YEROOIW e YDR309C non presentano un picco. 

10 Per il calcolo del sesto parametro P6 si deve considerate il numero massimo di 
picchi in corrispondenza dello stesso istante temporale. In questo esempio, il 
numero massimo di picchi e 17 e si ha in corrispondenza di 1 A2 1 . In particolare il 
56.7% (17 sequenze su 30) delle sequenze della combinazione presenta un picco 
in corrispondenza dello stesso istante temporale e quindi in questo caso P6 sara 

15 uguale a 0.57, come riportato in Tabella 8. 
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RIVENDICAZIONI 



1. Metodo di analisi di una tabella di dati relativi all'espressione di geni 
variabile nel tempo o relativa a condizioni difFerenti, al fine di identificare gruppi 
di geni co-espressi e co-regolati, comprendente 

definire ixn criterio di raggrappamento (clustering) di dati di detta tabella; 
per detto criterio di raggruppamento (clustering), determinare gmppi di geni 

in sotto-tabelle (clusters) che soddisfano tale criterio di 

raggruppamento (clustering); 
generare combinazioni di coppie di dette sotto-tabelle; 

calcolare parametri caratteristici dei dati associati a geni di una stessa 
combinazione; 

generare un valore caratteristico definito in funzione di detti parametri per 

ciascuno di detti gruppi di geni mediante un algoritmo di decisione 

basato su tecniche di Soft Computing; 
identificare le combinazioni il cui valore caratteristico e superiore ad una 

certa soglia prestabilita come 'Gene Networks' e scartare gruppi di geni 

il cui valore caratteristico e inferiore a detta soglia. 

2. II metodo della rivendicazione 1, comprendente inoltre le operazioni di 
definire un rispettivo insieme di criteri logici di filtraggio di dati di detta 

tabella; 

per ciascun criterio logico, determinare una corrispondente sotto-tabella 
(FILTER) filtrata contenente dati dei geni i cui valori di espressione 
soddisfano tale criterio logico; 

generare combinazioni di coppie di sotto-tabelle ottenute con detti criteri 
logici e di raggruppamento (filtering, clustering). 

3. II metodo della rivendicazione 1, in cui detto algoritmo di decisione e 
un algoritmo fiizzy i cui antecedenti e conseguenti sono definiti in fiinzipne di 
detti parametri. 

4. II metodo della rivendicazione 1, in cui detti parametri sono scelti 
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nell'insieme composto da parametri numerici legati al profilp di espressione 
genica, parametri che hanno un significato biologico di natura semantica, e da 
parametri misti che esprimono contemporaneamente relazioni di natura numerica 
e di natura semantica. 

5. II metodo della rivendicazione 1, in cui detti parametri ed indici di 
correlazione sono scelti neU'insieme costituito da: 

valori assoluti dei coefficienti di correlazione lineare tra dati associati a 
coppie di geni; 

valori assoluti dei coefficienti di correlazione quadratica tra dati associati a 
coppie di geni; 

percentuale di geni della combinazione che ha valore di espressione genica 

finale maggiore del rispettivo valore di espressione genica iniziale; 
percentuale di geni della combinazione che ha valore di espressione genica 

finale minore del rispettivo valore di espressione genica iniziale; 
percentuale di geni i cui valori di espressione genica hanno uno stesso 

andamento temporale crescente o decrescente; 
percentuale di geni che presenta un masisimo valore di espressione genica in 

una stessa condizione; 
percentuale di geni chie hanno attributi (ontologies) in comune; 
percentuale di geni che hanno domini fiinzionali in comune. 

6. n metodo della rivendicazione 1, comprehdente inoltre scartare 
combinazioni tra sotto-tabelle composte da un numero di geni inferiore ad un 
certo numero prestabilito, introducendo soiamente una volta geni che sono 
compresi in entrambe le sotto-tabelle combinate. 

7; n metodo della rivendicazione 1, in cui detti criteri di raggruppamento 
(clustering) sono basati su algoritmi scelti nell'insieme composto dagU algoritmi 
gerarchico agglomerativo, non gerarchico Kmeans, gerarchico Kmeans 
sequenziale, non gerarchico SOM e non esclusivo Fuzzy Clustering. 

8. II metodo della rivendicazione 5, comprendente 
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calcolare i coeflBcienti di correlazione tra tutte le sequenze geniche della 
combinazione; 

suddividere Fintervallo di valori da 0 a 1 in cinque sotto-intervalli di uguale 
ampiezza e assegnare a ciascuno di detti sotto-intervalli un rispettivo 
valore di correlazione quantizzato (v,); 

calcolare la percentuale di coeffidenti di correlazione appartenenti a ciascun 
sotto-intervallo; 

definire per ciascuna combinazione un coefELciente complessivo di 
correlazione lineare ottenuto conae media aritmetica dei valori 
quantizzati assodati ai sotto-intervalli in cui e distribuito un numero di 
coefficienti maggiore del 50%. 

9. H metodo della rivendicazidne 5, comprendente 

calcolare coeflScienti di correlazione quadratica tra tutte le sequenze geniche 

di una stessa combinazione; 
definire per ciascuna combinazione un coefficiente complessivo di 

correlazione quadratica ottenuto come media aritmetica di detti valori 

di correlasione. 

10. D metodo della rivendicazione 5, comprendente 

calcolare la percentuale di sequenzie della combinazione con un valore di 

espressione genica finale mag^ore di quella iniziale; 
definire un coefficiente relativo alia variazione complessiva del valore di 

espressione genica compreso tra 0 e 1 corrispondente a detta 

percentuale; 

11. n metodo della rivendicazione 5, comprendente 

calcolare la percentuale di sequenze della combinazione con un andamento 

. temporale crescente; 
definire un coefi&ciente relativo all' andamento temporale del profilo di 

espressione genica compreso tra 0 e 1 corrispondente a detta 

percentuale. 
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12. II metodo della rivendicazione 5, comprendente 

calcolare la percentuale di sequenze della combinazione con un valore di 
espressione maggiore di una prefissata soglia in corrispondenza di uno 
stesso istante; 

definire un coefQciente relativp alia presenza di escursioni massime del 
livello di espressione genica in corrispondenza dello stesso istante 
, temporale compreso tra 0 e 1 corrispondente a detta percentuale. 

13. Sistema di identificazione di gruppi di geni co-espressi e co-regolati 
secondo il metodo ddla rivendicazione 1, comprendente 

un sotto-sistema di pre-elaborazione (pre-processing), ricevente in ingresso 
dati di una tabella relatiyi air espressione di geni yariabile nel tempo o 
relative a cohdizioni diSerenti, generante sotto-tabelle (CLUSTERS) di 
dati di gruppi di geni che soddisfano un criterio di raggruppamento 
predefinito; 

un sotto-sistema di elaborazione dei dati di dette sotto-tabelle (clusters), 
generante segnali rappresentativi di parametri caratteristici dei dati 
ajssOciati a geni di una stessa combinazione di coppie di dette sotto- 
tabelle; 

un sotto-sistema intelligehte ricevente in ingresso detti segnali 
rappresentativi di parametri caratteristici e producente in uscita dati di 
gruppi di geni identificati come 'Gene Networks*. 

14. II sistema della rivendicazione 13, in cui detto sotto-sistema intelligente 
e im sotto-sistema fuzzy addestrato off-line identificato mediante una rete 
neuronale. 
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